package edu.uba.fcen.estimacion.cubrimiento;

import org.apache.log4j.Logger;

import edu.uba.fcen.estimacion.word.selection.WriterResult;
import edu.uba.fcen.estimacion.word.selection.filter.FilterWords;
import edu.uba.fcen.estimacion.word.selection.filter.NormalLineByLine;

/**
 *	Esta clase borra los tags de url <doc> que aparecen luego de extraerlo con WikiExtractor
 *	
 *	El archivo de entrada debe ser uno de entrada tipo wiki00 y la salida es wiki00WithoutURL
 */
public class SplitStatementsFromWikinews {

	private static Logger logger = Logger.getLogger(SplitStatementsFromWikinews.class);
	
	public static void main(String[] args) {
		String path = args[0];
		FilterWords fw = new NormalLineByLine(path);
		String line;
		final String htmlTagInit = "<doc";
		final String htmlTagEnd = "doc>";
		String fileName = "/Users/matias2681/Documents/facultad/tesis/wikinews/AA/";
		WriterResult wr = new WriterResult("wiki00WithoutURL" , fileName);
		while ((line = fw.readLine()) != null) {
			if (!(line.startsWith(htmlTagInit) || line.endsWith(htmlTagEnd))) {
				wr.writeWithEnter(line);
				logger.debug(line);
			}
		}
	}
	
}
